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基于 多 元 关系 的 张 量 分 解 标签 推荐 方法 “ 
辉 ， 胡 ” 强 ， 洽 修 修 


(华东 交通 大 学 信息 工程 学 院 , 南昌 330013) 


摘 要 : 标签 推荐 广泛 应 用 于 各 大 网 站 ， 如 电影 网 站 ， 电 子 商 务 网 站 等 等 ， 但 现 有 方法 忽视 了 多 种 属性 特征 之 间 的 联 

系 ， sa 
步 提高 标签 推荐 的 质量 。 该 方法 首先 对 一 些 对 产品 具有 重要 影响 的 用 户 进行 聚 类 ， 然 后 根据 用 户 、 产 品 、 标 签 

和 产品 评分 之 间 的 多 元 关系 综合 计算 总 权重 。 最 后 ， 根 据 聚 类 之 后 的 用 户 群体 以 及 多 元 关系 的 总 权 值 构建 张 量 并 进行 

张 量 因 式 分 解 。 与 传统 张 量 分 解 方法 相对 比 ， 实 验 结果 表明 本 文 提出 的 方法 在 准确 率 上 具有 一 定 的 提高 ， 验 证 了 算法 

的 有 效 性 
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Method for tag recommendation of tensor decomposition based on multiple relationships 


Zeng Hui, Hu Qiang, Gan Xiuxiu 
(College of Information Engineering, East China Jiaotong University, NanChang 330013, China) 


Abstract: Nowadays, tag recommendation is widely used in various websites, such as movie websites, e-commerce websites 
and so on. However, there are some methods that ignore the connection among the characteristics of a variety of attributes and 
can not guarantee the accuracy of the recommender system in the big data environment. Aiming at this problem, this paper 
proposed a tag recommendation method based on user clustering and tensor decomposition, which could further improve the 
quality of tag recommendation. The method firstly clustered the users who had an important influence on the product, and then 
comprehensively calculated the total weight based on the multiple relationships among the users, products, tags, and product 
ratings. Finally, it constructed the tensor according to the user groups after clustering and the total weight of the multivariate 
relations, and performed the tensor factorization. Compared with the traditional tensor decomposition method, the experimental 
results Show that our method improves the accuracy and verifies the effectiveness of the algorithm . 
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通常 ,标签 推荐 意味 着 不 同 的 用 户 可 以 使 用 不 同 的 标签 ( 字 ”多 元 关系 计算 综合 权重 , 从 而 构造 出 基于 四 元 关系 的 张 量 模型 ， 
词 列 表 ) 来 标注 产品 (如 网 站 、 电 影 )， 然 后 根据 用 户 过 去 的 标 ” 实验 结果 表明 本 文 提 出 的 模型 优 于 其 他 基准 算法 。 
记 行为 预测 其 未 来 的 行为 ， 向 目标 用 户 推 荐 其 感 兴趣 的 产品 。 本 文 首先 根据 用 户 的 活跃 性 以 及 相似 性 的 差异 对 用 户 进行 
例如 ， 若 两 个 不 同 的 用 户 都 标记 了 相同 的 商品 ， 则 他 们 趋向 于 ”” 聚 类 ， 将 数据 集 划分 成 若干 个 小 数据 集 ， 其次， 根据 用 户 、 产 
使 用 相同 的 标签 注释 未 来 的 其 他 商品 。 品 、 标 签 、 评 分 之 间 的 相互 关系 计算 出 各 自 的 重要 性 ， 综 合 四 

前 ， 部 分 标签 推荐 方法 通过 张 量 分 解 技术 对 标签 进行 排 ” 元 关系 的 权 值 构造 三 维 张 量 模型 最后， 应 用 Tucker 分 解法 及 

序 ， 例 如 高 阶 奇异 值 分 解 HOSVD〉 中 ， 张 量 因 子 分 解 排 序 算 。 最 小 二 乘法 对 张 量 模型 进行 优化 求解 ,生成 一 系列 的 推荐 结果 。 
法 (RTF) 外 和 用 于 情境 感知 协同 过 滤 的 n 维 张 量 因 子 分 解 目 等” ”实验 结果 表明 ， 本 算法 的 推荐 准确 率 与 其 他 推荐 算法 相 比 具有 
等 。 Rendle 等 人 中 引入 了 两 种 不 同 的 张 量 数据 解释 : 0/1 解释 方 。 较 好 的 提高 ， 验 证 了 本 文 算法 的 有 效 性 。 
案 和 基于 位 置 的 排序 解释 方案 , 结果 显示 RTF 能 够 获得 良好 的 ， 
预测 质量 。 杨 秋 勇 内 提出 了 一 种 基于 三 元 关系 权 值 数据 解释 方 
案 (LORTF ), 虽然 实验 结果 有 一 定 的 提高 , 但 是 算法 效率 较 低 。 标签 推荐 已 经 被 广泛 地 应 用 于 各 种 模型 推荐 算法 中 。 
在 本 文中 ， 提 出 了 一 种 通过 考虑 用 户 、 产 品 、 标 签 、 评 分 之 间 ”Krestel 等 人 口 提 出 了 一 种 基于 潜在 狄 利 克 雷 分 配 (LDA) 的 方 
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oe ChinaXiv 合 人 
录用 稿 曾 ， 逻 ， 等 : 基于 多 元 关系 的 张 量 分 解 标 签 推 荐 方法 
法 ， 它 应 用 具有 潜在 主题 的 专业 术语 向 用 户 推荐 相应 的 文章 ， 。 陷 D。 
同一 主题 中 的 词语 则 有 机 会 在 其 他 文章 中 呈现 ， 但 是 该 方法 缺 ,, 本 a 
乏 个 性 化 的 考虑 。 | ol1l1ilo 1|ollilollololnrlon 
随 着 推荐 算法 的 快速 发 展 ， 许 多 算法 模型 都 被 混合 应 用 于 rn 
推荐 领域 中 ， 如 贝 叶 斯 分 类 器 、 聚 类 、 人 工 神经 网 络 以 及 决策 golilolol iololollol ols 
树 等 等 机 器 学 习 算 法 。 文 献 [@] 将 社交 标签 并 入 两 种 聚 类 方法 ; |- ojol olorlol ofofrls 
基于 LDA 的 K-means 和 生成 聚 类 方法 ， 尽 管 文 中 证 明了 标签 oololo jolololol oslola 
作为 聚 类 的 附加 信息 源 的 价值 ， 但 是 其 中 的 聚 类 模型 缺乏 用 户 
维度 ， 导 致 Fl 得 分 略 低 。 习 基于 0/1 解释 表现 形式 图 例 
张 量 因 式 分 解 模型 已 在 各 种 个 领域 研究 应 用 广泛 07? 1.2.2 基于 标注 的 排名 解释 方案 
Kolda 等 人 0 描述 了 CANDECOMP /PARAFAC 和 Tucker 分 解 Rendle 等 人 "提出 区 分 正 、 负 示例 和 缺失 值 ， 以 便 学 习 标 
的 两 种 不 同 的 张 量 因 子 分 解 方 法 。Frolov 等 人 [0 介绍 了 张 量 在 。” 签 的 个 性 化 排名 。 该 原理 是 根据 观察 到 的 标签 分 布 中 积极 、 消 
社会 标记 系统 中 的 应 用 以 及 各 种 相关 的 张 量 分 解 算 法 。 极 的 例子 判断 正 负 ， 可 观察 到 的 标签 被 解释 为 正 反馈 ， 而 未 标 
人 记 标 签 则 为 负 反馈 ， 剩 余 其 他 条 目 被 假定 为 缺失 值 “如 图 2 所 
1 ”标签 推荐 _ , 
Ss 
标签 推荐 的 任务 是 为 用 户 提供 特定 产品 标签 的 个 性 化 列表 。 {tl(wp)eBA(w pi)eA) 
例如 ， 当 观众 用户 ) 想 要 标记 电影 产品) 时， 电影 网 站 能 全 所 双生 
够 从 该 用 户 的 过 去 对 其 他 标签 的 注释 行为 以 及 其 他 用 户 对 该 标 ”其 中 : 负 反 馈 T 并 不 代表 为 零 ， 只 是 正 反馈 Ti, 的 值 要 比 负 
签 和 其 他 标签 的 注释 行为 中 学 习 推 荐 标签 的 列表 ， 从 而 向 观众 ”反馈 To 的 值 更 高 ， 更 具有 参照 意义 。 
推荐 他 或 她 想 要 的 关键 字 列表 。 
Vser7 User2 User3 
1.1 数据 的 形式 化 表示 人 
假设 分 别 用 U、P、T、R 表示 用 户 、 产 品 、 标 签 、 评 分 集 | | |， ee es ee 
合 。 在 文章 "中 将 历史 标记 信息 表示 为 A SCx PxT , 它 是 一 gr) |- 
个 关于 分 类 变量 的 三 元 关系 ， 可 以 被 看 作 是 一 个 三 维 张 量 ， 其 ?| -| 
中 的 A 中 的 三 元 组 是 过 去 的 积极 观测 值 。 本 文中 的 元 组 使 用 的 We 
是 “用 户 -产品 -标签 -评分 ”组 成 的 元 组 ,但 评分 并 不 作为 主要 i 0 Ws 
的 特征 维度 ， 只 是 作为 一 个 重要 的 属性 特征 ， 应 用 在 后 面 的 权 2 基于 标注 排序 的 表现 形式 图 例 
值 计算 中 。 元 组 (wp,t,s)e 4 表示 存在 用 户 u 对 产品 p 使 用 标 。 1.2.3 基于 权 值 解释 方案 
签 ! 进行 了 标识 并 给 出 相应 的 评分 s， 表 明 用 户 w 对 所 用 的 Pe 
品 的 描述 或 评价 。 分 别 结合 (wp)，(w1), (pt) 可 以 定义 成 维度 上 的 权重 关系 综合 考虑 ,利用 总 权 值 wsv 的 方式 表示 该 元 
Ee 0 0 组 的 重要 性 ， 从 而 表明 了 其 在 整个 元 组 集合 中 所 占 的 比重 ， 其 
ee 具体 含义 为 用 户 j 使 用 标签 1 来 标记 产品 表 达 了 用 户 对 产品 
:={(u, :(u,p, 
de ti (0 的 喜爱 程度 ， 如 图 3 表示 。 
其 中 ， 已 ,2 及 可 以 认为 是 元 组 A 分 别 在 用 户 -产品 、 用 户 - 标 User] User2 User3 
签 、 产 品 -标签 的 维度 上 的 二 维 投影 。 [二 | le NN 
0 Wowisa 0 | mw 0 0 0 | 0 hh 
1.2， 张 量 数据 的 表示 Sey 
张 量具 有 不 同 的 表示 方式 ， 每 种 表示 方式 能 够 应 用 在 不 同 a Mn | 
推荐 算法 中 ， 以 下 主要 介绍 三 种 解释 形式 。 | ls | 
1.2.1 基于 0/1 解释 方案 Progucr ro Product 
Y 中 的 三 元 组 可 以 用 三 阶 张 量 表示 ，Symeonidis 等 人 " 提 图 3 林 于 权 信 表 现形 式 图 例 
出 将 Y 解释 为 一 个 稀疏 张 量 ， 其 中 1 表示 正 反馈 ，0 表示 缺失 基于 综合 权 值 的 表现 形式 与 前 两 种 表现 形式 对 比 具有 以 下 
值 (如 图 1 所 示 )， 训 练 数据 yo 被 定义 为 和 
2 I 四 a) 能 够 充分 考虑 元 组 中 的 每 个 元 素 之 间 的 相互 关系 , 并 且 
| 元 素 之 间 各 自 的 差异 也 可 以 加 以 区 分 ， 减 少 了 相关 属性 对 生成 
但 是 ， 基 于 0/1 解释 方案 具有 语义 错误 、 精 确 度 较 低 的 缺 
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E 荐 结果 产生 的 不 良 影响 。 
b) 能 够 充分 考虑 产品 的 受 欢 迎 程度 、 用 户 对 某 些 产品 的 


类 : 活路 用户， 普通 用户 ， 无 意 用 户 。 活 跃 用 户 是 用 户 集合 中 
最 具 代表 性 的 类 别 ， 该 类 用 户 使 用 了 大 量 产品 并 用 标签 标记 、 


喜欢 程度 ， 将 使 用 过 该 产品 的 用 户 、 标 签 等 因素 用 权 值 表示 ， 
并 将 用 户 对 该 产品 的 评分 等 级 进行 加 权 计 算 ， 综合 考虑 之 后 产 
品 所 表现 受 欢 迎 程度 层次 分 明 ， 更 易于 精确 推荐 。 

c) 有 助 于 区 分 标签 的 重要 性 。 在 同一 产品 中 
所 使 用 的 标签 可 能 不 同 ， 但 可 以 将 不 同 的 标签 进行 统计 算 选 ， 
将 出 现 频率 较 高 的 标签 给 出 相对 较 高 权 值 ， 出 现 次 数 较 少 或 者 
语义 不 明 的 标签 权 值 相对 较 低 。 


<， 


有 
> 
| 
I 


2 方法 


本 章节 首先 介绍 了 张 量 因子 分 解 模 型 ， 然 后 根据 用 户 使 用 
产品 的 活跃 性 以 及 用 户 之 间 相 似 性 对 用 户 聚 类 ， 在 同一 用 户 群 
体 信息 基础 上 找 出 相关 的 元 组 关系 ， 基 于 权 值 的 形式 表示 元 组 
之 间 的 重要 性 ， 结 合 “ 用 户 -产品 -标签 -评分 ”之 间 关 系 的 综合 
权 值 构建 张 量 模型 ， 并 对 其 进行 优化 求解 ， 最 后 获得 对 目标 用 
户 的 推荐 列表 。 

2.1 张 量 因 式 分 解 模型 


评分 等 ， 因 此 活跃 用 户 自 身 的 权重 会 比较 大 。 相 反 ， 无 意 用 户 
的 权重 将 非常 小 ， 该 类 用 户 指 在 平台 中 极 少 的 产品 使 用 量 ， 其 
至 注册 之 后 仅仅 上 线 过 几 次 ， 没 有 过 多 的 参考 价值 。 除 了 活跃 
用 户 和 无 意 用 户 之 外 ， 剩 下 的 则 为 普通 用 户 ， 该 类 用 户 占 所 有 
用 户 集合 中 的 绝 大 多 数 ， 同 时 也 是 主要 的 推荐 对 象 。 

和 户 活跃 性 更 多 体现 在 用 户 使 用 的 相关 产品 以 及 所 标记 的 
标签 数量 上 ， 通 常 产 品 和 标签 的 数据 量 通常 要 远 远大 于 用 户 的 
数据 量 ， 因 此 在 用 户 的 权 值 计 算 时 需要 将 产品 和 标签 对 用 户 的 
影响 进行 综合 考虑 。 
首先 计算 用 户 使 用 产品 的 权 值 大 小 , 计算 公式 如 式 (6) 所 
示 ， 其 权 值 Ww, yd 品 的 用 户 次 数 成 正比 ， 能 够 
反映 该 产品 受到 的 欢迎 程度 。 


I 


本 文中 ， 张 量 分 解 的 方法 主要 是 Tucker 分 解 ， 是 一 种 高 阶 
主 成 分 分 析 的 形式 。 它 在 每 种 模式 下 将 张 量 分 解 成 核心 张 量 以 
及 对 应 的 因子 和 矩阵， 分 解 原 理 如 图 4 所 示 。 


Nx 
MxNxK RE Pp 
pi 一 
总 下 
一 让 G 
一 一 Kxn 
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图 4 三 阶 张 量 的 Tucker 分 解 原理 

张 量 义 分解 可 以 表示 为 :X= G;U,P,T =Gx,Ux,Px,T。 其 
中 ，UeR”*，PeR"，TeRR*% 是 相应 维度 上 的 低 秩 特征 算 
阵 ， 它 可 以 被 认为 是 每 种 模式 的 主要 组 成 部 分 ， 因 此 被 认为 是 
一 种 高 阶 的 主 成 分 分 析 的 形式 。 核心 张 量 Ge 及 ">xs 表示 不 同 
部 分 (特征 矩阵) 之 间 的 交互 ， 保 留 了 原始 张 量 主要 信息 并 且 
有 具 有 一 定 的 稳定 性 ， 它 的 维度 为 xxn。 在 通常 情况 下 ,被 压 
缩 后 的 张 量 的 存储 量 需求 要 远 小 于 原 张 量 ， 有 利于 满足 存储 空 


Ww = Pm 业 (6) 
A 
但 是 由 于 每 个 pe 和 的 7 we 样 ， 有 些 活跃 
用 户 使 用 的 产品 数量 巨大 ， 避免 产品 的 使 用 量 过 多 导致 权 
值 太 大 ， 需 要 设置 一 个 权重 因子 &, 使 得 产品 的 总 权 值 小 于 等 


于 1， 计算 形 式 如 下 所 示 ; 


WwW, 三 QQ, 举 Ww 
" " (urs Pr JEPa : 7) 
相似 地 , 标签 的 权 值 大 小 与 该 标签 被 使 用 的 用 户 数量 成 正 
比 ， 其 权 值 wx 可 以 使 用 式 (8) 计算 。 
2 uu 
(ut )eQa (8) 


WwW, 
”ol 
同 理 ， 由 于 某 些 标签 被 使 用 的 次 数 过 多 ， 导 致 累加 的 权 人 
过 大 , 因此 需要 设置 一 个 参数 cx 限定 标签 的 总 权 值 小 于 等 于 1， 
计算 形式 如 下 所 示 : 


W, = 0, * >， Ww, ， (9) 


(ut )eQa 
用 户 的 权重 需要 通过 使 用 的 产品 权重 W, 和 标签 权重 
w, 综合 计算 ， 但 是 由 于 前 者 的 重要 性 要 偏 高 ， 并 且 需 要 限定 


间 的 需求 。 在 学 习 了 特征 矩阵 和 核心 张 量 之 后 ， 可 以 按 如 下 方 
式 进 行 预 测 : 


人 
We Li (4) 


a 


u p +t 


其 中 :波浪 号 表示 特征 矩阵 中 特征 维度 上 的 索引 ,用 “帽子 ” 标 
记 特 征 矩 阵 的 元 素 〈( 如 ，wi )。 能 够 从 公式 “4) 中 导出 张 量 的 
预测 值 ， 并 生成 Top-N 个 性 化 推荐 列表 : 


~N 入 
Top (u, p,N )=arg max Xups . (5) 
teT 


2.2 综合 权重 的 计算 方法 
2.2.1 用 户 聚 类 
本 文 将 所 有 用 户 集合 根据 


它们 之 间 的 活跃 性 不 同 分 为 三 大 


用 户 权 值 在 0 和 1 之 间 , 所 以 可 以 设置 一 个 参数 w 且 大 于 0.5， 
计算 形式 如 下 : 


WwW, =QA*w, 十 一 2) WwW, (ac e (0.5,1)). (10) 


获得 所 有 用 户 的 权重 之 后 ， 依 据 所 有 用 户 权 值 大 小 进行 降 
序 排序 ， 然 后 选择 前 N 个 用 户 作为 活跃 用 户 集 ， 将 排 在 最 后 部 
分 且 小 于 设 定 的 六 值 的 用 户 集 作为 无 意 用 户 ， 该 类 用 户 不 加 入 
模型 的 训练 ， 剩 下 的 则 为 普通 用 户 。 

由 于 用 户 集合 过 大 ， 若 直接 构建 张 量 模型 ， 则 算法 复杂 性 
会 明显 增 大 ， 为 了 提升 算法 数据 的 处 理 效率 以 及 提高 推荐 的 准 
确 性 ， 将 普通 用 户 与 活跃 用 户 集合 聚 类 成 若干 个 相似 性 的 用 户 
群体 .通过 采用 修正 余弦 相似 度 方 法 计算 出 用 户 之 间 的 相似 性 ， 
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oe 
录用 稿 曾 ” 涟 ， 等 : 基于 Shin YR 人 由 
将 各 个 用 户 所 使 用 的 产品 集合 减 去 当前 用 户 已 评级 产品 的 平均 。 签 权 值 的 求解 是 根据 三 元 组 中 标签 出 现 次 数 与 所 使 用 的 标签 的 
值 作 为 输入 向 量 ， 把 活动 用 户 zw 和 普通 用 户 所 使 用 的 产品 。 最 大 次 数 的 比例 计算 : 
集合 作为 ma 维 向 量 , 其 中 向 量 元 素 值 为 集合 中 产品 被 用 户 使 用 
的 次 数 fs。 相 似 度 计算 方法 如 下 : (Pe)eA (16) 
区 max(times, ) 
2 Can 、 和 、 
jin) ee 综合 权重 的 计算 可 以 根据 以 上 所 求 得 的 用 户 权 值 w。、 产 
2 (ts) 品 权 值 ww 和 标签 权 值 w， 综合 考虑 ， 并 设 定 相应 的 比例 参数 
Va A ， 计 算 公 式 如 下 所 示 : 
根据 计算 的 相似 性 结果 对 比分 析 ， 选 择 多 个 活跃 用 户 作 为 Ws = tw ta WelOl) (7) 
聚 类 的 中 心目 标 ， 并 对 各 自 之 间 的 相似 性 移 代 排序 ， 为 每 个 普 将 用 户 U、 产 品 P、 标 签 了 分 别 作为 张 量 的 三 个 维度 ，1 
通用 户 选择 一 个 最 为 相似 的 用 户 群 体 ， 最 终 获 得 多 个 聚 类 集 。 计算 得 到 的 综合 权 值 确定 对 应 张 量 维度 上 的 元 素 值 并 构建 三 维 
本 文 根 据 聚 类 结果 筛选 之 后 选取 了 两 个 聚 类 集 作 为 实验 数据 ，“。 张 量 。 通 过 对 张 量 进 行 meker 分 解 以 及 最 小 二 乘法 优化 分 解 的 
将 聚 类 集中 用 户 的 相关 产品 、 标 签 、 评 分 构成 元 组 数据 ， 以 便 “。” 结果， 再 根据 式 (4) (5) 可 以 获得 最 终 预测 的 TOP-N 个 性 化 
于 下 一 步 求解 元 组 的 综合 权重 。 推荐 列表 。 
2.2.2 计算 元 组 的 综合 权重 和 
计算 综合 总 权 值 需要 综合 不 同 维度 上 的 权 值 考虑 ， 它 的 权 。 了 ”实验 结果 和 分 析 
值 大 小 是 元 组 关系 的 总 体 表现 。 用 户 权 值 体现 的 是 用 户 的 活跃 。 3.1 数据 集 


程度 ， 主 要 依据 用 户 使 用 产品 和 标签 的 数量 ， 而 产品 权 值 不 仅 
要 考虑 用 户 在 产品 上 的 权重 和 标签 在 产品 上 的 权重 ， 而 且 还 需 
要 考虑 用 户 对 产品 的 评分 大 小 。 

用 户 在 某 个 产品 上 的 权 值 ww 主 


要 是 


要 是 依据 使 用 该 产品 的 


所 有 用 户 权 值 ww 的 平均 值 ， 可 用 式 〈12) 表示。 
D3 WwW, 
(Wpr )ePa 
j= 2 (12) 
Us 


Dn ea lt 
过 某 个 产品 被 标签 标记 的 数量 和 标签 集合 总 数 的 比例 


权 值 ， 
ne 
轩 
_ (pvt)eRa 
(全 
评分 权 值 sw 是 指 某 个 产品 被 大 众 用 户 给 出 的 评分 均值 ， 
可 通过 用 户 集合 对 该 产品 总 评分 与 该 产品 被 用 户 的 评分 次 数 的 
比例 计算 而 得 ， 可 用 式 (14) 表示 。 


(13) 


及 下 


— (Peus)ePa 


U 


(14) 


Prolts 


Pk 


产品 的 总 权 值 ww 需要 综合 以 上 三 者 关系 , 但 它们 之 间 所 
5 的 重要 关系 不 一 样 ,需要 设置 不 同 的 参数 限定 产品 的 总 权 值 。 


且 由 于 产品 的 总 权 值 最 大 值 为 1， 而 其 中 的 评分 值 普遍 大 于 
1， 因 此 需要 在 它们 前 面 设置 不 同 的 限定 参数 和 4， 计算 方法 如 
下 : 

WwW, = “Wyn + “Ws + ‘Sp, (4 e(0,1)) (15) 
标签 的 权 值 w 的 求解 只 需 单 纯 地 考虑 标签 之 间 的 关系 ， 
无 须 再 考虑 用 户 和 产品 在 标签 上 的 影响 因素 ， 因 为 前 面 求 得 的 


用 户 权重 和 产品 权重 均 将 标签 与 它们 之 


间 的 关系 考虑 进去 。 标 


本 文 对 初步 获得 的 MovieLens 数据 集 进 行 数据 预 处 到 
最 终 得 到 16 3295 条 记录 。 这 些 数 ] 
，1 128 个 标签 ， 


289 个 电影 


了 评分 ， 评 分 范 


根据 用 


户 聚 类 的 结果 ， 将 500 个 用 


结果 最 好 的 两 类 用 


为 0.5-5 寺 


户 的 相关 数据 与 


每 个 用 户 都 对 
共 十 个 等 级 ， 每 个 评分 区 间 为 0.5。 


户 分 成 了 六 类 ， 


要 的 实验 数据 如 表 1 所 示 。 


表 1 


数据 集 说 明 


» 


昌 $YA LH 
影 给 出 


E 之 后 ， 
四 集中 包含 500 个 用 户 
身 看 过 的 电 


9 


选取 了 聚 类 


其 他 算法 进行 对 比 实验 ， 主 


数据 集 


a 项 目 


标签 


总 记录 数 


Clusterl 


Cluster2 


100 5196 


84 4002 


1123 
1108 


59524 
28338 


3.2 参数 设置 
在 用 户 
标记 的 标签 


聚 类 的 过 程 中 ， 
量 都 不 一 样 ， 其 至 相差 太 大 ， 导 致 用 


于 每 个 用 


品 权 值 和 标签 权 值 累加 数量 过 
值 接近 100, 因此 参数 会 设置 的 相对 较 小 ， 
在 计算 ) 


都 设置 为 0.01。 
签 的 权 值 ， 


人 否则 月 


0.6。 


在 综合 权 值 计算 过 程 , 其 
参数 4 =44 =44 
有 个 参数 的 设置 缘由 与 用 / 
于 累加 数量 过 多 因此 需要 设置 一 个 较 小 的 参数 ， 记 
数 心 由 于 评分 本 身 数 值 过 大 ， 产 品 权 值 又 限定 小 卫 
此 也 需要 设 定 一 个 较 小 参数 。 最 后 上 
度 上 的 参数 设置 都 是 1， 即 保证 总 权 值 小 于 等 


参数 称 为 0.05， 


参数 九 和 参数 九 


征 维 
3.3 


评估 方法 


本 文 实验 的 订 
率 (precision )、 召 


上 大， 


至 有 些 用 户 使 
将 参数 cco 和 


户 使 用 的 产品 数量 以 及 


户 使 | 


户 权 值 时 ， 


户 聚 类 效果 会 不 玫 


里 想 ， 因 此 将 参 


参数 刀 为 0.01, 参 
=1 。 在 计算 产品 的 权 值 时 ， 


ie 


价 指标 是 在 各 类 算法 


产品 权 值 比重 需要 大 于 


了 的 7 
的 产品 权 
[参数 w， 


数 z 设 


F 等 于 1， 


” 聚 类 的 相 类 似 ， 
分 权 值 参 
因 


F 标 
为 


数 用 为 0.01， 


于 3。 


究 中 常 被 应 用 的 ; 


可 率 (recall)、F 值 (FE-measure ) /(F-score )。 


的 综合 权 值 计算 中 ， 三 个 特 


确 
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本 算法 从 两 个 簇 类 和 集 的 用 户 中 ， 随 机 抽取 每 个 用 户 所 使 用 的 部 
分 相关 产品 及 标签 数据 作为 测试 集 S;,,, ， 剩 余部 分 作为 训练 集 
Sun 。 每 个 评价 指标 都 是 使 用 推荐 列表 中 的 TOP-1 至 TOP-15 
进行 对 比 实验 。 


Precision( S,,,, N)= 


test? 


|TopCu, p, NN{ tC, p,t) e Si, ]| 
N 


(18) 


avg 
(Wp )eSiesr 


Recall( S,,,, N)= 


[Top(u, p, NN {Cu, p,t) E Sasi | 
{t|Cu, pt) E Ss } 


(19) 


2.Precision(S,,,, N):Recall(S ) 


test? test? 


Precision( S,,,, N)+Recall( S,,,, N) 


test? Lest? 


Fl(S,,,N)= 


test? 


(20) 


3.4 实验 结果 和 分 析 
本 文 使 用 四 个 算法 与 本 算法 进行 对 比 实 验 ， 其 中 “0O/1 
”是 使 用 “0/1” 模 式 023,“LORTF” 虽 然 使 用 的 也 是 权 
值 的 方式 ， 但 是 该 方法 仅仅 考虑 的 是 三 元 关系 外， 而 本 方法 
“New Method” 利 用 “用 户 -产品 -标签 -评分 ”四 元 关系 权 值 模 
式 进行 的 张 量 分 解 ， 更 多 地 参考 了 四 元 关系 之 间 的 权重 大 小 ， 
“4-D” 是 采用 四 维 张 量 分 解 的 方法 00,， 将 “用 户 -产品 -标签 - 评 
分 ?作为 四 个 不 同 的 维度 构建 张 量 进行 对 比 。 在 这 几 种 方法 中 ， 
使 用 的 都 是 相同 的 拆 分 方法 和 数据 集 ， 在 每 个 数据 集中 随机 抽 
取 20% 的 数据 作为 测试 集 , 80% 用 作 训 练 集 构 建 模型 进行 实验 。 


Scheme 


前 四 种 算法 的 核 张 量 都 是 使 用 (8，8，8) 的 维度 ， 而 算法 “4- 
D” 为 了 避免 运算 的 复杂 性 过 大 和 内 存 消 耗 过 大 ， 将 评分 等 级 


个 等 级 ， 并 使 用 (8，8，8，3) 维度 的 核 张 量 进行 优 
不 同 的 评价 指标 对 两 个 篮 类 数据 的 对 比 实验 


改 成 1-5 
化 分 解 。 以 下 应 
结果 进行 分 析 。 

对 比 图 6 和 7 中 的 实验 结果 可 知 ， 本 方法 在 Top-1 至 Top- 
15 de 度 优 于 其 他 方法 , 随 着 推荐 数目 地 递 

， 算 法 的 准确 度 也 在 逐渐 地 减 小 ， 并 且 可 以 看 出 Clusterl 和 
Cluster2 的 实验 结果 精确 度 都 超过 了 其 他 方法 。 

根据 图 8 和 9 中 的 召回 率 对 比 可 以 看 出 ， 数 据 集 Clusterl 
中 Topl 至 Top3 的 结果 优 于 其 他 方法 , 但 是 随 着 Top-N 数量 的 


i 


吉 果 可 


五 


递增 ， 该 方法 的 召回 率 略 低 于 其 他 方法 。 通 过 与 其 他 方法 对 比 
可 知 ， 在 数据 集 Cluster2 中 ， 随 着 Top-N 值 的 递增 ， 本 方法 的 
召回 率 表 现 优 于 其 他 方法 。 
0.45 
mLORTF 
0.4 
i New Method 
时 视 mHOSVD 
§ 02s m4D 
E 02 m0/1 Scheme 
全 01s 
:| 
0.05 
, | | MI nn 
1 2 3 5 10 15 


Top-N 


图 6 Clusterl 的 Top-1 到 Top-15 列表 的 准确 率 


Measure 


F- 


2 
3 


图 
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曾 ， 辉 ， 等 : 基于 多 元 关系 的 张 量 分 解 标签 推荐 方法 
0.5 
Us mLORTF 
0.4 New Method 
0 nHOSVD 
本 4D 
025 
02 m0/1 Scheme 
0.15 
01 | 
0.05 
| | | Il | hl 用 


本 N 


图 7 Cluster2 的 Top-l 到 Top-15 列表 的 


住 确 率 
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图 8 _ Clusterl 的 Top-l 到 Top-15 列表 的 召 
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率 


Top-N 

图 9 _ Cluster2 的 Top-1 到 Top-15 列表 的 召 
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0.06 

0.05 
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Top-N 


10 Clusterl 的 Top-l 到 Top-15 


通过 图 10 和 图 


的 F-measure 值 无 论 是 


0 
1 2 3 5 10 15 


列表 的 F-Measure 
11 中 的 各 个 方法 对 比 ， 可 以 看 出 本 文 方法 
在 Clusterl 还 是 在 Cluster2 上 


其 他 方法 ， 
但 整体 F-Measure 很 小 ， 


值 ， 


结果 表明 ， 
原因 主要 是 本 方法 充分 考虑 了 多 元 关系 的 属性 


且 推 荐 数量 在 Top3-Top5 之 间 时 明显 高 于 其 
这 是 由 于 数据 集 太 稀 玻 的 缘故 。 
本 方法 在 推荐 过 程 中 的 表现 明显 好 于 其 他 方法 。 


均 要 高 于 
他 Top 


特征 


， 以 权 值 


[x 
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分 各 自 的 重要 性 ， 间 接地 提升 了 


4 


其 


案 


在 
系 
结 
作 
者 


和 


2 


[1] 


E 荐 的 准确 率 。 


t 


LORTF New Method mHOSVD 4-D m0/1Scheme 
0.09 
0.08 
0.07 
3 oo6 
§ 0.05 
二 0.04 
™ 0.03 
0.02 
可 | 
0 
1 2 3 5 10 15 
Top-N 
图 11 Cluster2 的 Top-l 到 Top-15 列表 的 F-Measure 
结束 语 


本 文 首先 针对 三 种 不 同 的 张 量 数据 表现 形式 进行 了 介绍 ， 
中 包括 0/1 解释 方案 ， 标 注 排序 解释 方案 和 综合 权重 解释 方 
。 然 后 ， 基 于 用 户 的 活跃 性 以 及 相似 性 对 用 户 进行 聚 类 ， 
聚 类 后 的 用 户 集合 基础 上 ， 结 合 产品 、 标 签 、 评 分 的 多 元 关 
计算 综合 权 值 。 将 本 文 方法 的 评估 结果 与 其 他 方法 相对 比 ， 
果 表 明 本 文 方法 具有 较 好 的 准确 性 、 合 理性 。 对 于 未 来 的 工 
， 将 从 下 面 两 个 方面 进行 研究 : a) 通过 调节 更 优 的 参数 ， 或 
结合 一 些 其 他 重要 影响 因素 ， 提 升 权 值 的 计算 方法 ，b) 研 究 
种 更 好 的 方法 来 应 对 数据 的 稀 疏 性， 以 提高 算法 的 运算 速度 
预测 的 准确 性 。 


mt 
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